查看原文
其他

迈向更强的开集目标检测-From Detection to Grounding

OpenMMLab OpenMMLab 2024-04-23


【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~





本期精彩




开集目标检测主要有两种方案,分别是 referring(CLIP-based)和 Grounding。近期,IDEA 研究院联合清华大学发布了一项工作,他们将基于 Transformer 的目标检测模型 DINO 和 Grounding 预训练结合了起来,同时使用多种数据:detection,grounding,和图像-文本对训练模型,使其拥有极强的开放集合检测能力。此外,他们还将 Grounding DINO 和多种不同的视觉基础模型组合了起来,使其拥有更强的能力。


本期开放麦,我们邀请到该工作的一作清华大学计算机系博士生刘世隆,分享他们在该方向的探索。


分享内容


  • 实现开集目标检测的两种思路

    Referring(CLIP-based)和 Grounding

  • Grounding DINO 介绍

    如何结合 Grounding 预训练和目标检测模型 DINO 构建更强的开放世界检测模型

  • Grounded-SAM

    Grounding DINO 与其他视觉基础模型组合应用



分享时间


北京时间

2023 年 9 月14 日(周四)

20: 00 - 20: 40(分享)

20: 40 - 21: 00(Q&A)



分享嘉宾


刘世隆


清华大学计算机系博士生,导师为朱军教授,也长期在粤港澳大湾区数字经济研究院(IDEA-Research)接受张磊教授的指导。研究方向包括计算机视觉和机器学习,目标检测、多模态学习、开放世界感知等。




内容详情


目标检测是计算机视觉的基础任务。传统目标检测(闭集目标检测)将范围限定在特定的类别中,而我们希望能够根据文本检测任意物体,即完成开集目标检测。



图 1:从 Closed-set detection 到 Open-set detection


开集目标检测主要有两种方案,分别是 referring(CLIP-based)和 Grounding。已有的大部分的相关工作是 Referring 形式完成的。


图 2:已有的开集检测相关工作的总结


Referring 更加符合人的直觉,采用表示学习的思路对 region 的特征进行分类。如传统的两阶段分类器首先提取 region,然后判断 region 中物体的类别。将后面一步的分类层换成 region —文本对比层即可实现开集目标检测。



图 3:如何从 Closed-Set Detection

走向 Referring Open-Set Object Detection


而 Grounding 则是不同的思路,其将 Detection 问题转化成 Grounding 问题。如下图所示,将类别名拼成一句话作为 prompt,然后将图像和 prompt一同输入模型然后获得相对应的类别和 box。


图 4:将检测问题建模成 Grounding 问题


相比于 Referring,Grounding 可以更方便地兼容图像-文本对,因此更便于使用大规模数据增强模型的能力。


基于此,我们将基于 Transformer 的目标检测模型 DINO 和 Grounding 预训练结合了起来,同时使用多种数据:detection,grounding,和图像-文本对训练模型,使其拥有极强的开放集合检测能力。



图 5:Grounding DINO 结构图


我们还在将 Grounding DINO 和多种不同的视觉基础模型组合了起来,使其拥有更强的能力。比如我们将 Grounding DINO 和 SAM 结合组成了 Grounded-SAM,使其可以根据文本检测和分割一切目标。参考 Grounded-SAM 的 repohttps://github.com/IDEA-Research/Grounded-Segment-Anything来发现更多有趣的模型组合和示例。


图 6:Grounded-SAM 效果


相关工作

Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection


paper:

Grounding DINO:

https://readpaper.com/paper/4731752776334327809?channel=OpenMMlab


Semantic-SAM:

https://readpaper.com/paper/1866234282986521088?channel=OpenMMLab


code:

https://github.com/IDEA-Research/GroundingDINO


https://github.com/IDEA-Research/Grounded-Segment-Anything



交流群



同时为了方便大家交流沟通,我们还建立了相关的技术交流群,提供与大佬 1v1 的机会,扫码即可入群~







往期回顾


多模态学习旨在构建能够处理和关联来自多种模态信息的模型。尽管该领域已经发展多年,但由于各种模态(例如自然语言、2D 图像、3D 点云、音频、视频、时间序列、表格数据)之间固有的差距,设计一个统一的网络来处理这些模式仍然具有挑战性。为了解决这一挑战,港中文 MMLab 联合上海 AI Lab 提出了一个统一多模态学习框架—— Meta Transformer,采用全新的设计思路,通过统一学习无配对数据,可以理解 12 种模态信息。


上期开放麦,我们邀请到香港中文大学 MMLab 博士生张懿元,他详细介绍了这一领域的一系列新工作。超多干货,欢迎通过视频回放温习一下哦~




中国大模型顶流们的闭门交流会,都聊了些什么?

2023-09-08

新增5种编程语言代码测试!大模型评测平台OpenCompass上新啦

2023-09-07

LLM最新学术进展,8月精选论文推荐!

2023-09-06




继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存